3.12. Сжатие речи.
               3.12.1.Основные характеристики речи..

         Современный персональный компьютер в реальном времени может представить речь графически - во временной или спектральной области. Осциллограмму речи можно получить с помощью обычного микрофона и звуковой карты, а обработать и проанализировать простейшим звуковым редактором. Более информативный способ анализа - это спектральное представление, когда акустический сигнал представляется в виде наложения большого числа синусоид. Разложение сигнала в спектр обычно проводится с помощью быстрого преобразования Фурье - БПФ, реализованного в большинстве компьютерных звуковых редакторов и специальных программ обработки речи.


Рис. 3.12. Трехмерная сонограмма слова "терра" (диктор №1, стандартный мужской голос).
Хорошо видно развитие во времени спектральных составляющих.
Сечение сонограммы плоскостью, перпендикулярной оси времени,
образует мгновенные спектры.

        Речевики и лингвисты в своих исследованиях чаще всего используют представление речевого сигнала в виде трех- или двухмерных сонограмм. В первом случае по осям координат откладываются время, частота и спектральная плотность (энергия) частотной составляющей (рис.3.12), а на двухмерной сонограмме ось энергии заменяется интенсивностью цвета в плоскости время-частота. На рис.3.13-3.14 показаны двухмерные сонограммы, причем более яркому цвету на них соответствует большая спектральная плотность.


Рис. 3.13. Широкополосная сонограмма слова "терра" (диктор №2, высокий женский голос).
Видна особенность в произношении звука "Р" как многоударного звука
(вертикально ориентированные разрывы спектральной картины).


Рис. 3.14. Узкополосная сонограмма слова "терра" (диктор №1, стандартный мужской голос).
Роль верхних частот относительно диктора №2 меньше, так как мужской голос ниже женского.


Рис. 3.15. Узкополосная сонограмма слова "терра" (диктор №1, стандартный мужской голос).
Красные полосы - формантные траектории.


Рис. 3.16. Узкополосная сонограмма слова "терра" (диктор №2, высокий женский голос).
Расстояние между гармониками ОТ велико по сравнению с другими сонограммами,
так как данный голос высокий.

        Расстояние между гармониками ОТ велико по сравнению с другими сонограммами, так как данный голос высокий.
         По сонограммам удобно анализировать основной тон и формантные траектории речи (горизонтально ориентированные узкие полосы - гармоники частоты основного тона речи; желто-зеленые горизонтальные области - траектории формант). Основные понятия, которые характеризуют голос человека связанны с формой, размерами и динамикой изменения речеобразующего тракта. Это, прежде всего, спектр мощности (средний и мгновенный спектр, кросскореляции спектральных компонентов), формантные характеристики (частоты формант, их амплитуда и ширина, скорость изменения), кепстральные характеристики (преобразование Фурье от логарифма модуля спектра), параметры основного тона голоса (среднее значение, дисперсия, статистические моменты, изрезанность мелодического контура, микро- и макровариации), статистические характеристики ритмики и темпа речи (количество фонетических слов, звуков в секунду, распределение длительности звуковых сегментов, речевых пауз) и многие другие.
         Частота колебания голосовых связок, характеризующая основной тон (ОТ), составляет в среднем от 100 до 200 Гц для мужских голосов и от 220 до 350 Гц для женских, причем даже у одного и того же человека в зависимости от эмоционального состояния и ситуативности речи ОТ может изменяться в довольно ощутимых пределах. С акустической точки зрения речевой сигнал может быть разделен на три типа: тональные (озвученные) участки, образуемые при участии в фонации голосовых связок, не тональные (шумовые) и речевые паузы, вовсе не содержащие сигнала.
        Для тональных участков речевого сигнала спектр функции голосового возбуждения состоит из ряда гармоник ОТ, расстояние между которыми определяется величиной частоты ОТ, а во временной области сигнал периодичен (см. рис. 3.17). Для шумовых участков спектр возбуждения более всего напоминает белый шум.


Рис. 3.17. Форма звуковой волны гласного звука "а" в увеличенном масштабе.
Отчетливо проявляющаяся периодичность соответствует частоте основного тона речи.


        Другой важнейший параметр речи - это форманты и их изменение во времени. Они отражают не только дифференциальные признаки фонем, но и индивидуальные артикуляционные стереотипы человека. Обычно при спектральном представлении сравнительно "чистого" сигнала на сонограмме просматриваются четыре-пять формант. Высокие форманты менее заметны на спектре, но именно они несут важную информацию (и криминалистическую, в частности) об индивидуальности человека. Формантные траектории необходимо изучать в их взаимосвязи на протяжении нескольких высказываний, отмечая локальные расщепления или исчезновения и исключая случайные пики на коротких отрезках сигнала. При этом формантные траектории для мужских и женских голосов различны, не говоря уже о детских или подростковых голосах, где форманты "живут" совсем своей жизнью и проблема отличия "настоящих" формант от ложных максимумов спектра становится крайне сложной.
        Считается, что частоты формант не зависят от свойств голосового источника, а полностью определяются формой голосового тракта. Это положение является одним из основных постулатов современной акустической теории речеобразования. Во первых позволяет использовать анализ параметров основного тона условно независимо от параметров, описывающих динамику речеобразующего тракта. Во-вторых, устанавливает однозначную корреляцию между аудитивно воспринимаемым способом артикуляции звука и его акустическим представлением в виде формантной картины. От формант следует отличать понятие тембра, характеризующего аудитивное восприятие окраски звуков речи. Тембр акустически определяется характеристиками гармоник основного тона речи, а также высокочастотными составляющими спектра.
        На рисунке 3.18 вертикально ориентированные пики соответствуют гармоникам ОТ. Если провести плавную огибающую, охватывающую гармоники в областях спектральных максимумов, можно выделить частоту, уровень и ширину формант (например, для звука "а" хорошо видны три форманты: 300-1500 Гц - первая, 2200-3100 Гц - вторая и 3300-2900 Гц - третья). В верхнем ряду графиков показаны типичные формы звуковой волны трех русских гласных ("а", "и", "о"), а на графиках нижнего ряда представлены в том же порядке спектры тех же гласных на стационарных участках сигнала, где видны пики гармоник частоты основного тона и форманты речи.


Рис. 3.18. В верхнем ряду показаны типичные формы звуковой волны трех гласных "а", "и", "о"
(слева направо) изолированного произнесения (мужской голос), на которых хорошо видна нестационарность периодов ОТ. В нижнем ряду показаны соответствующие им спектры.
По горизонтали отложена частота в Гц, по вертикали амплитуда в дБ.


        Сравнение спектров дает довольно наглядные признаки, отличающие одни гласные от других. Например, гласную "и" всегда отличает относительно большая роль высших формант.
        Помимо формант и основного тона спектральная картина звуков определяется и шумовым источником - турбулентным или импульсным шумом при образовании щелевых (фрикативных) и взрывных (эксплозивных) согласных звуков, которые представлены в виде иррегулярного распределения акустической энергии во времени.
        С научной точки зрения речеобразование можно представить в виде простой модели, в которой речевой тракт представляется линейным фильтром с изменяющимися во времени параметрами и возбуждается генератором периодических импульсов, белого шума или их совокупности. Анатомически линейный фильтр формируется акустической трубой, состоящей из дыхательного (легкие, бронхи, трахея) и произносительного аппаратов (гортань с голосовыми связками, глотка, носовая и ротовая полости, язык, небо, губы). При разговоре грудная клетка расширяется и сжимается, прокачивая воздух из легких по трахее через голосовую щель. Звуки образуются при выдохе воздуха при условии, что давление воздуха под голосовыми связками превышает давление над ними, тогда воздух, проходя через голосовую щель, смыкает и размыкает голосовые связки, колебания которых модулируют звуковую волну. Частота смыкания-размыкания связок и представляет собой частоту основного тона речи. Если голосовые связки расслаблены, воздух свободно проходит через голосовую щель, не подвергаясь модуляции, и речь получается не озвученная. После голосовых связок воздушный поток проходит через глоточную полость мимо основания языка и, в зависимости от положения мягкого неба, через ротовую и (или) носовую полости, производя при этом шум. Добравшись наконец до "выхода", поток воздуха излучается в пространство в виде акустических волн и, достигнув слухового аппарата человека, интерпретируется им как речь.
        Голосовой тракт (и соответствующий ему в модели речеобразования линейный фильтр) имеет несколько резонансных областей, создающих энергетически сильные спектральные области - упоминавшиеся выше форманты. Индивидуальные акустические параметры человека определяются уникальными формой и размерами голосового тракта, свойствами его стенок, динамикой изменения его геометрии, формой и периодичностью импульсов голосового источника, а также зависят от взаимодействия носовой и ротовой полостей, анатомических свойств груди, бронхов, пазух черепа.